本申請(qǐng)涉及人工智能,特別是涉及一種機(jī)器人運(yùn)動(dòng)策略模型優(yōu)化方法及相關(guān)裝置。、目前,機(jī)器人在進(jìn)行運(yùn)動(dòng)規(guī)劃時(shí),一般是基于已經(jīng)訓(xùn)練好的策略模型。關(guān)于策略模型的訓(xùn)練,經(jīng)常采用兩種方式:傳統(tǒng)強(qiáng)化學(xué)習(xí)算法和傳統(tǒng)基于人的演示數(shù)據(jù)的模仿學(xué)習(xí)算法。其中,傳統(tǒng)強(qiáng)化學(xué)習(xí)算法是由機(jī)器人自主與訓(xùn)練環(huán)境交互,進(jìn)行隨機(jī)探...